12章 言語2:理解と産出
https://gyazo.com/82db38b31bfa5440a46dea1862701d4e
12-1. 音声の知覚
I/O
12-1-1. 音声と音素
スラッシュで囲んで表記
井戸→ /i/, /d/, /o/という3つの音素
/l/と/r/は日本語では同じ音だが英語では違う
日本語と英語両方で同じ音として聞いている音素でも、音声としての物理的な特性は大きく変化する
子供の/i/は大人の発する/i/より高い周波数の音を含んでいる
井戸の/i/と愛の/i/は周波数の変化の仕方が相当に異なる
私達は物理的にはかなり違った特性を持ついろいろな音声を1つの音素として知覚している
12-1-2. カテゴリー知覚
プの/p/は振動を感じない
プと発音すると発声が始まってから少しだけ遅れて声帯が振動する
これが有声開始時間
ブと発音すると発音が始まると同時に声帯が振動する
つまり、VOTが短いと「ブ」、長いと「プ」になる
もし人間がVOTの変化を連続量として知覚しているのであれば、グラフも連続的な変化になるはずである
実際には急激な変化→連続的な変化というより離散的な変化に近かった
音素は離散的なカテゴリーとして知覚される
適応論の観点からみた音素のカテゴリー知覚
ノイズに強い
12-1-3. 音素の知覚
実際にははっきり分かれて聞こえているわけではない
単語を聞き取る際には文脈情報が大きな役割を果たしている
統語的な前後関係や意味的な前後関係
12-1-4. 調音結合
単語だけでなく、音素を聞き取る際にも文脈情報は大きな役割を果たす
音素は物理的にもどのような周波数の音が含まれているか、それが時間的にどのように変化するかといった情報によって決まる
diとdu→どちらも/d/を含む
diの場合:2400ヘルツぐらいの高い周波数が強く、しかも周波数が少し高いところから2400ヘルツぐらいに落ちる
duの場合:600ヘルツぐらいの低い周波数が強く、しかも周波数が低いところから600ヘルツぐらいに上がる
前後関係を無視して物理的な周波数だけで/d/という音素を定義することはできない
12-1-5. 音素修復
言語音でない音が含まれる「*heel」を被験者は文脈に応じた語として聞き取った
文は最後の単語だけが違う→どのような音素として聞こえるのは、ずっとあとに出てくる単語の意味によって決まる場合がある
音声を理解する際にはボトムアップ処理だけでなく、文脈情報に基づくトップダウン処理も行われている 適応的
無音よりも雑音を挟んだ方が知覚しやすくなる
雑音に打ち消された部分を補って音声全体を聞き取るという情報処理
12-2. 書き言葉の認知
12-2-1. パンデモニアム
文字の認知は基本的には視覚システムによる形の認知
並列処理モデル
イメージ・デーモン:網膜に相当。文字を写し取りそれを脳に送る。
特徴デーモン:自分の担当する特徴があるかどうかを調べる。
認知デーモン:特徴デーモンのボードを見て、自分が担当する文字の特徴があるかどうかを調べる。担当する文字の特徴がたくさんある認知デーモンほど大きな声を上げる
決定デーモン:一番大きな声をあげている認知デーモンが担当する文字が目に写った文字だと判断する
12-2-2. 単語優位効果
単語の認知が文字の認知より早い場合があるということが実験で確認されている
文字の有無を答える場合、単語の中に提示した場合の方が正答率は高くなった
単語の認知→文字が認知
文字の認知が先であれば、非単語の場合も変わらないはず
単語という上位の情報が下位の情報の認知に影響する
パンデモニアムのようなボトムアップ処理だけを想定しているモデルではうまく説明できない
12-2-3. 相互活性化モデル
https://gyazo.com/0df1f98890997b19f64c272f760f4a63
wordという単語が一瞬だけ提示されるとworという3つの文字全体が認知されるのではなく、文字の構成要素だけが認知される
文字に含まれる斜線や円などの要素
特徴に合う文字の候補がいくつも活性化→それらの文字から構成される単語の候補がいくつも活性化する
この時点では実際に見たのがどの文字化という判断は定まっていない
単語の候補が活性化するとトップダウン処理が働き、その単語を構成する文字の活性化が強まる
wordを提示された場合にはdに含まれる構成要素が活性化
workよりもwordの方が活性化する確立が高くなる
相互活性化モデルにもとづくコンピュータ・シミュレーションでは実際に単語優位効果を生じさせることに成功している
12-3. 話し言葉の認知
12-3-1. 単語の認知
言語処理システムは逐次的な処理をしながら並列的にも処理をしているらしいということがわかってきた
単語のはじめの音声が入力されるとただちに単語の候補を探し始める
文字列が単語の場合は3種類の関係のどれかをもつ(e.g. 音声提示captainの場合)
(1) 意味的な関連のある語(e.g. ship)
(2) 「はじめの幾つかの音素が同じ単語」と意味的な関連のある単語(e.g. 「money」→capitalから )
(3) 関連のない語(e.g. goal)
単語か非単語かを判断する時間は(3)>(1)&(2)
(1)の場合はcaptainの意味ネットワークの活性化が波及
(2)の場合は同じ音素の組み合わせであるcapitalという単語も活性化→moneyにも活性化が波及
captainの-tainという音声の処理と並行して、cap-で始まる単語の処理が進んでいたことを示している
12-3-2. 話し言葉を処理するモデル
逐次処理のモデルも提案されているが、並列処理のコネクショニストモデルが有力になってきている。
3つの階層
(1)音声の特徴を表すユニットが集まった階層(母音性、子音性など)
入力と一致する特徴ユニットが活性化
(2)音素を表すユニットが集まった階層(/s/, /t/など)
活性化した特徴ユニットと繋がっている音素ユニットが活性化
(3)単語を構成する音の組み合わせを表すユニットが集まった階層(/set/, /sel/など)
活性化した音素ユニットと繋がっている単語ユニットが活性化する
活性化のプロセス
(1)→(3)はボトムアッププロセス。
(3)→(1)にも伝播する。
抑制のプロセス
同じ階層の中では活性化を抑制しあう。一つが活性化されると別のものの活性化が抑制される。
このプロセスは数十分の1秒で完了する
トレースモデルの特徴
一つの音声が入力されたとき、それを受け付ける時間の幅が設定されている
(1)→(3)へと階層を上がるほど大きくなる。
単語階層では単語全体を聴き終えるのに十分な大きさになる
最初の音素を聞き逃したとしても後続の音素だけから最初の音素ユニットを活性化し、単語の認知に成功するということも可能になる
12-4. 文の認知
12-4-1. 統語解析
単語の認知→文を理解するための情報処理
文の意味を理解するためには、単語と単語の間の関係を把握しなければならない
構文解析木で表されている関係を理解するためには文法的な知識が必要
単語には意味的な情報と別に統語的な情報が保存されている
12-4-2. 解析方略
統語的な知識も文法規則も手続き記憶のような無意識的な知識として使用している
文法的な知識の中には規則と言うより方略(ストラテジー)といった性質のものも含まれているらしい。
句を閉じるのをできるだけ遅らせようとする方略
分析中の句にできるだけたくさんの単語を取り込んでしまおうという方略
Since Jay always jogs a mile seems like a very short distance to him.
jogsを読んだ時点では動詞句。遅い閉鎖の方略によりa mileを副詞句として取り込んでしまう。
12-4-3. モジュラー性
もし統語解析がモジュールによって行われているのだとすれば、統語解析は文法規則や解析方略などの統語的な知識だけに基づいて行われ、文の意味のように文法とは関係のない知識は影響しないはず
後の研究によって、文法的な知識ではない一般的な知識も統語解析に影響する場合のあることがわかってきた。
The defendant examined by the lawyer turned out to be unreliable
読むのにかかった時間はこちらのほうが長かった
袋小路文
.再解釈に余分な時間がかかる
The evidence examined by the lawyer turned out to be unreliable.
evidenceは人ではないのでexaminedは最初から過去分詞として解釈される
すなわち、単語の意味によって統語解析が影響を受けている
完全に独立したモジュールではなくある程度意味ネットワークなどと相互作用をしているのではないかと考えられる。
12-5. 談話の理解
文法的な知識や規則は1つの文の中で単語と単語の関係を理解するためのもの
代名詞以外にも様々な推測を行っている。
Ed was given an alligator for his birthday. The alligator was his favorite present.
Ed wanted an alligator for his birthday. The alligator was his favorite present.
話し手と聞き手が共通に理解している実物の輪には存在しない
実物のワニが何なのかを推測する必要がある
12-5-1. 日常会話の理解
ニクソン大統領の執務室での会話
日常会話の理解は絶え間ない推測
12-5-2. リーディング・スパン・テスト
言語理解には作動記憶が大きな役割を果たしていると考えられる
作動記憶の容量には個人差がある
文の音読と単語の記憶
文の数が6つになると全問正解できる人はほとんど皆無になる
12-6. 言語産出
12-6-1. フロムキンの発話産出モデル
言語産出は言語理解の情報処理プロセスをただ逆にしただけではない
(1)意味の同定
どういう意味を伝えるのか決める
(2)構文構造の選択
統語的な構造を決める
(3)抑揚輪郭の生成
構文構造の発音の強弱を決める
(4)内容語の挿入
(1)で決めた意味に合う具体的な名詞、動詞、形容詞などを記憶から探し出してきて、(2)で決めたスロットに挿入する
(5)接辞と機能語の形成
(6)音声要素の特定
音韻を生成する規則に基づいて文を音素として発話する
フロムキンは言い間違いの研究のデータに基づいて段階を設定した
例えば接尾辞が入れ替わってしまった言い間違いから接辞を追加するという処理段階を推定
12-6-2. 並列処理モデル
あるモデルは発話のための情報処理は4層の神経回路網によって行われていると想定(Dell, 1986) 意味、統語、形態素、音素という4レベル
情報処理は意味から音素へと一方向に進むだけでなく、逆方向の処理も行われる
レベル間の情報処理と各レベルの中での情報処理は同時に進行する
同時に色々な情報処理が行われ、その中で最も活性化の高くなった音素が実際に発音される